奖励模型越来越重要,对于改善LLMS的推理性能。现有的研究表明,训练有素的奖励模型可以通过搜索或最佳n票在推理时间上大大改善模型性能。但是,在RL训练时间期间奖励模型的潜力仍然很大程度上还不足。目前尚不清楚这些奖励模型是否可以为使用稀疏成功奖励的RL培训提供额外的培训信号,从而验证解决方案的正确性。在这项工作中,我们评估了RL培训的流行奖励模型,包括受结果监督的奖励模型(ORM)和程序监督的奖励模型(PRM),以及通过将这些学习的奖励与成功奖励相结合,培训了使用RL的LLM集合来解决数学问题。令人惊讶的是,即使这些学到的奖励模型具有强大的推理时间表演,它们也可能不会帮助甚至伤害RL训练,而与仅接受成功奖励的LLM相比,表现差。我们的分析表明,LLM可以通过重复正确但不必要的推理步骤从其中一些奖励模型获得高奖励,这导致了RL培训的严重奖励黑客问题。因此,我们介绍了两种新颖的奖励精致技术,包括剪裁和三角洲。关键思想是确保任何推理轨迹的累积奖励都受到上限,以使学习的奖励模型有效而无需被利用。我们在数学和GSM8K基准的一组1.5B和7B LLMS上使用多个奖励模型评估了我们的技术,其中剪切和Delta都始终稳定RL训练。最后,我们还证明,通过精心设计的奖励功能,无需任何其他监督调整的纯RL训练就可以进一步改善所有评估的LLM,包括数学和GSM8K基准的最先进的7B LLM QWEN2.5-MATH-7B-7B-7B-7B。
主要关键词
![arxiv:2410.15115v3 [cs.lg] 2024年11月27日PDF文件第1页](/bimg/c/c888afb68762119f8017f5ce5007889b5f66c35e.webp)
![arxiv:2410.15115v3 [cs.lg] 2024年11月27日PDF文件第2页](/bimg/2/2c3c86804f0efc64bbb0e92db82645cce66c9971.webp)
![arxiv:2410.15115v3 [cs.lg] 2024年11月27日PDF文件第3页](/bimg/6/64476668969f38be1f440d8a90736e8d0b1deaeb.webp)
![arxiv:2410.15115v3 [cs.lg] 2024年11月27日PDF文件第4页](/bimg/b/b83be12ca1d70fc7e5402cd3c17c7684629928e8.webp)
![arxiv:2410.15115v3 [cs.lg] 2024年11月27日PDF文件第5页](/bimg/0/04fa8cb3c2c6a2db392704470603a87006662b4a.webp)
